home *** CD-ROM | disk | FTP | other *** search
/ Developer CD Series 1998 January: Mac OS SDK / Dev.CD Jan 98 SDK2.toast / Development Kits (Disc 2) / TEC 1.2.1 / Headers & Libs / Interfaces / TextCommon.h next >
Encoding:
C/C++ Source or Header  |  1997-11-18  |  15.2 KB  |  349 lines  |  [TEXT/MPS ]

  1. /*
  2.      File:        TextCommon.h
  3.  
  4.      Contains:    Common text types and constants and prototypes for related functions 
  5.  
  6.      Copyright:    © 1984-1997 by Apple Computer, Inc.
  7.                  All rights reserved.
  8. */
  9. #ifndef __TEXTCOMMON__
  10. #define __TEXTCOMMON__
  11.  
  12. #ifndef __TYPES__
  13. #include <Types.h>
  14. #endif
  15.  
  16. #ifdef __cplusplus
  17. extern "C" {
  18. #endif
  19.  
  20. #if PRAGMA_IMPORT_SUPPORTED
  21. #pragma import on
  22. #endif
  23.  
  24. #if PRAGMA_ALIGN_SUPPORTED
  25. #pragma options align=mac68k
  26. #endif
  27.  
  28. /* LocaleIdentifier is an obsolete Copland typedef, will be removed soon*/
  29. typedef UInt32 LocaleIdentifier;
  30. /* TextEncodingBase type & values */
  31. /* (values 0-32 correspond to the Script Codes defined in Inside Macintosh: Text pages 6-52 and 6-53 */
  32. typedef UInt32 TextEncodingBase;
  33.  
  34. enum {
  35.                                                                 /* Mac OS encodings*/
  36.     kTextEncodingMacRoman        = 0L,
  37.     kTextEncodingMacJapanese    = 1,
  38.     kTextEncodingMacChineseTrad    = 2,
  39.     kTextEncodingMacKorean        = 3,
  40.     kTextEncodingMacArabic        = 4,
  41.     kTextEncodingMacHebrew        = 5,
  42.     kTextEncodingMacGreek        = 6,
  43.     kTextEncodingMacCyrillic    = 7,
  44.     kTextEncodingMacDevanagari    = 9,
  45.     kTextEncodingMacGurmukhi    = 10,
  46.     kTextEncodingMacGujarati    = 11,
  47.     kTextEncodingMacOriya        = 12,
  48.     kTextEncodingMacBengali        = 13,
  49.     kTextEncodingMacTamil        = 14,
  50.     kTextEncodingMacTelugu        = 15,
  51.     kTextEncodingMacKannada        = 16,
  52.     kTextEncodingMacMalayalam    = 17,
  53.     kTextEncodingMacSinhalese    = 18,
  54.     kTextEncodingMacBurmese        = 19,
  55.     kTextEncodingMacKhmer        = 20,
  56.     kTextEncodingMacThai        = 21,
  57.     kTextEncodingMacLaotian        = 22,
  58.     kTextEncodingMacGeorgian    = 23,
  59.     kTextEncodingMacArmenian    = 24,
  60.     kTextEncodingMacChineseSimp    = 25,
  61.     kTextEncodingMacTibetan        = 26,
  62.     kTextEncodingMacMongolian    = 27,
  63.     kTextEncodingMacEthiopic    = 28,
  64.     kTextEncodingMacCentralEurRoman = 29,
  65.     kTextEncodingMacVietnamese    = 30,
  66.     kTextEncodingMacExtArabic    = 31,                            /* The following use script code 0, smRoman*/
  67.     kTextEncodingMacSymbol        = 33,
  68.     kTextEncodingMacDingbats    = 34,
  69.     kTextEncodingMacTurkish        = 35,
  70.     kTextEncodingMacCroatian    = 36,
  71.     kTextEncodingMacIcelandic    = 37,
  72.     kTextEncodingMacRomanian    = 38,                            /* The following use script code 4, smArabic*/
  73.     kTextEncodingMacFarsi        = 0x8C,                            /* Like MacArabic but uses Farsi digits*/
  74.                                                                 /* The following use script code 7, smCyrillic*/
  75.     kTextEncodingMacUkrainian    = 0x98,                            /* The following use script code 32, smUnimplemented*/
  76.     kTextEncodingMacVT100        = 0xFC,                            /* VT100/102 font from Comm Toolbox: Latin-1 repertoire + box drawing etc*/
  77.                                                                 /* Special Mac OS encodings*/
  78.     kTextEncodingMacHFS            = 0xFF,                            /* Meta-value, should never appear in a table.*/
  79.                                                                 /* Unicode & ISO UCS encodings begin at 0x100*/
  80.     kTextEncodingUnicodeDefault    = 0x0100,                        /* Meta-value, should never appear in a table.*/
  81.     kTextEncodingUnicodeV1_1    = 0x0101,
  82.     kTextEncodingISO10646_1993    = 0x0101,                        /* Code points identical to Unicode 1.1*/
  83.     kTextEncodingUnicodeV2_0    = 0x0103,                        /* New location for Korean Hangul*/
  84.                                                                 /* ISO 8-bit and 7-bit encodings begin at 0x200*/
  85.     kTextEncodingISOLatin1        = 0x0201,                        /* ISO 8859-1*/
  86.     kTextEncodingISOLatin2        = 0x0202,                        /* ISO 8859-2*/
  87.     kTextEncodingISOLatinCyrillic = 0x0205,                        /* ISO 8859-5*/
  88.     kTextEncodingISOLatinArabic    = 0x0206,                        /* ISO 8859-6, = ASMO 708, =DOS CP 708*/
  89.     kTextEncodingISOLatinGreek    = 0x0207,                        /* ISO 8859-7*/
  90.     kTextEncodingISOLatinHebrew    = 0x0208,                        /* ISO 8859-8*/
  91.     kTextEncodingISOLatin5        = 0x0209,                        /* ISO 8859-9*/
  92.                                                                 /* MS-DOS & Windows encodings begin at 0x400*/
  93.     kTextEncodingDOSLatinUS        = 0x0400,                        /* code page 437*/
  94.     kTextEncodingDOSGreek        = 0x0405,                        /* code page 737 (formerly code page 437G)*/
  95.     kTextEncodingDOSBalticRim    = 0x0406,                        /* code page 775*/
  96.     kTextEncodingDOSLatin1        = 0x0410,                        /* code page 850, "Multilingual"*/
  97.     kTextEncodingDOSGreek1        = 0x0411,                        /* code page 851*/
  98.     kTextEncodingDOSLatin2        = 0x0412,                        /* code page 852, Slavic*/
  99.     kTextEncodingDOSCyrillic    = 0x0413,                        /* code page 855, IBM Cyrillic*/
  100.     kTextEncodingDOSTurkish        = 0x0414,                        /* code page 857, IBM Turkish*/
  101.     kTextEncodingDOSPortuguese    = 0x0415,                        /* code page 860*/
  102.     kTextEncodingDOSIcelandic    = 0x0416,                        /* code page 861*/
  103.     kTextEncodingDOSHebrew        = 0x0417,                        /* code page 862*/
  104.     kTextEncodingDOSCanadianFrench = 0x0418,                    /* code page 863*/
  105.     kTextEncodingDOSArabic        = 0x0419,                        /* code page 864*/
  106.     kTextEncodingDOSNordic        = 0x041A,                        /* code page 865*/
  107.     kTextEncodingDOSRussian        = 0x041B,                        /* code page 866*/
  108.     kTextEncodingDOSGreek2        = 0x041C,                        /* code page 869, IBM Modern Greek*/
  109.     kTextEncodingDOSThai        = 0x041D,                        /* code page 874, also for Windows*/
  110.     kTextEncodingDOSJapanese    = 0x0420,                        /* code page 932, also for Windows*/
  111.     kTextEncodingDOSChineseSimplif = 0x0421,                    /* code page 936, also for Windows*/
  112.     kTextEncodingDOSKorean        = 0x0422,                        /* code page 949, also for Windows; Unified Hangul Code*/
  113.     kTextEncodingDOSChineseTrad    = 0x0423,                        /* code page 950, also for Windows*/
  114.     kTextEncodingWindowsLatin1    = 0x0500,                        /* code page 1252*/
  115.     kTextEncodingWindowsANSI    = 0x0500,                        /* code page 1252 (alternate name)*/
  116.     kTextEncodingWindowsLatin2    = 0x0501,                        /* code page 1250, Central Europe*/
  117.     kTextEncodingWindowsCyrillic = 0x0502,                        /* code page 1251, Slavic Cyrillic*/
  118.     kTextEncodingWindowsGreek    = 0x0503,                        /* code page 1253*/
  119.     kTextEncodingWindowsLatin5    = 0x0504,                        /* code page 1254, Turkish*/
  120.     kTextEncodingWindowsHebrew    = 0x0505,                        /* code page 1255*/
  121.     kTextEncodingWindowsArabic    = 0x0506,                        /* code page 1256*/
  122.     kTextEncodingWindowsBalticRim = 0x0507,                        /* code page 1257*/
  123.     kTextEncodingWindowsKoreanJohab = 0x0510,                    /* code page 1361, for Windows NT*/
  124.                                                                 /* Various national standards begin at 0x600*/
  125.     kTextEncodingUS_ASCII        = 0x0600,
  126.     kTextEncodingJIS_X0201_76    = 0x0620,
  127.     kTextEncodingJIS_X0208_83    = 0x0621,
  128.     kTextEncodingJIS_X0208_90    = 0x0622,
  129.     kTextEncodingJIS_X0212_90    = 0x0623,
  130.     kTextEncodingJIS_C6226_78    = 0x0624,
  131.     kTextEncodingGB_2312_80        = 0x0630,
  132.     kTextEncodingGBK_95            = 0x0631,                        /* annex to GB 13000-93; for Windows 95*/
  133.     kTextEncodingKSC_5601_87    = 0x0640,                        /* same as KSC 5601-92 without Johab annex*/
  134.     kTextEncodingKSC_5601_92_Johab = 0x0641,                    /* KSC 5601-92 Johab annex*/
  135.     kTextEncodingCNS_11643_92_P1 = 0x0651,                        /* CNS 11643-1992 plane 1*/
  136.     kTextEncodingCNS_11643_92_P2 = 0x0652,                        /* CNS 11643-1992 plane 2*/
  137.     kTextEncodingCNS_11643_92_P3 = 0x0653,                        /* CNS 11643-1992 plane 3 (was plane 14 in 1986 version)*/
  138.                                                                 /* ISO 2022 collections begin at 0x800*/
  139.     kTextEncodingISO_2022_JP    = 0x0820,
  140.     kTextEncodingISO_2022_JP_2    = 0x0821,
  141.     kTextEncodingISO_2022_CN    = 0x0830,
  142.     kTextEncodingISO_2022_CN_EXT = 0x0831,
  143.     kTextEncodingISO_2022_KR    = 0x0840,                        /* EUC collections begin at 0x900*/
  144.     kTextEncodingEUC_JP            = 0x0920,                        /* ISO 646, 1-byte katakana, JIS 208, JIS 212*/
  145.     kTextEncodingEUC_CN            = 0x0930,                        /* ISO 646, GB 2312-80*/
  146.     kTextEncodingEUC_TW            = 0x0931,                        /* ISO 646, CNS 11643-1992 Planes 1-16*/
  147.     kTextEncodingEUC_KR            = 0x0940,                        /* ISO 646, KS C 5601-1987*/
  148.                                                                 /* Misc standards begin at 0xA00*/
  149.     kTextEncodingShiftJIS        = 0x0A01,                        /* plain Shift-JIS*/
  150.     kTextEncodingKOI8_R            = 0x0A02,                        /* Russian internet standard*/
  151.     kTextEncodingBig5            = 0x0A03,                        /* Big-5 (has variants)*/
  152.     kTextEncodingMacRomanLatin1    = 0x0A04,                        /* Mac OS Roman permuted to align with ISO Latin-1*/
  153.     kTextEncodingHZ_GB_2312        = 0x0A05,                        /* HZ (RFC 1842, for Chinese mail & news)*/
  154.                                                                 /* Other platform encodings*/
  155.     kTextEncodingNextStepLatin    = 0x0B01,                        /* NextStep encoding*/
  156.                                                                 /* EBCDIC & IBM host encodings begin at 0xC00*/
  157.     kTextEncodingEBCDIC_US        = 0x0C01,                        /* basic EBCDIC-US*/
  158.     kTextEncodingEBCDIC_CP037    = 0x0C02,                        /* code page 037, extended EBCDIC (Latin-1 set) for US,Canada...*/
  159.                                                                 /* Special value*/
  160.     kTextEncodingMultiRun        = 0x0FFF,                        /* Multi-encoding text with external run info*/
  161.                                                                 /* The following are older names for backward compatibility*/
  162.     kTextEncodingMacTradChinese    = 2,
  163.     kTextEncodingMacRSymbol        = 8,
  164.     kTextEncodingMacSimpChinese    = 25,
  165.     kTextEncodingMacGeez        = 28,
  166.     kTextEncodingMacEastEurRoman = 29,
  167.     kTextEncodingMacUninterp    = 32
  168. };
  169.  
  170. /* TextEncodingVariant type & values */
  171. typedef UInt32 TextEncodingVariant;
  172.  
  173. enum {
  174.                                                                 /* Default TextEncodingVariant, for any TextEncodingBase*/
  175.     kTextEncodingDefaultVariant    = 0,                            /* Variants of kTextEncodingMacIcelandic                                                    */
  176.     kMacIcelandicStandardVariant = 0,                            /* 0xBB & 0xBC are fem./masc. ordinal indicators*/
  177.     kMacIcelandicTrueTypeVariant = 1,                            /* 0xBB & 0xBC are fi/fl ligatures*/
  178.                                                                 /* Variants of kTextEncodingMacJapanese*/
  179.     kMacJapaneseStandardVariant    = 0,
  180.     kMacJapaneseStdNoVerticalsVariant = 1,
  181.     kMacJapaneseBasicVariant    = 2,
  182.     kMacJapanesePostScriptScrnVariant = 3,
  183.     kMacJapanesePostScriptPrintVariant = 4,
  184.     kMacJapaneseVertAtKuPlusTenVariant = 5,                        /* Variant options for most Japanese encodings (MacJapanese, ShiftJIS, EUC-JP, ISO 2022-JP)    */
  185.                                                                 /* These can be OR-ed into the variant value in any combination*/
  186.     kJapaneseNoOneByteKanaOption = 0x20,
  187.     kJapaneseUseAsciiBackslashOption = 0x40,                    /* Variants of kTextEncodingMacArabic*/
  188.     kMacArabicStandardVariant    = 0,                            /* 0xC0 is 8-spoke asterisk, 0x2A & 0xAA are asterisk (e.g. Cairo)*/
  189.     kMacArabicTrueTypeVariant    = 1,                            /* 0xC0 is asterisk, 0x2A & 0xAA are multiply signs (e.g. Baghdad)*/
  190.     kMacArabicThuluthVariant    = 2,                            /* 0xC0 is Arabic five-point star, 0x2A & 0xAA are multiply signs*/
  191.     kMacArabicAlBayanVariant    = 3,                            /* 8-spoke asterisk, multiply sign, Koranic ligatures & parens*/
  192.                                                                 /* Variants of kTextEncodingMacFarsi*/
  193.     kMacFarsiStandardVariant    = 0,                            /* 0xC0 is 8-spoke asterisk, 0x2A & 0xAA are asterisk (e.g. Tehran)*/
  194.     kMacFarsiTrueTypeVariant    = 1,                            /* asterisk, multiply signs, Koranic ligatures, geometric shapes*/
  195.                                                                 /* Variants of kTextEncodingMacHebrew*/
  196.     kMacHebrewStandardVariant    = 0,
  197.     kMacHebrewFigureSpaceVariant = 1,                            /* Variants of Unicode & ISO 10646 encodings*/
  198.     kUnicodeNoSubset            = 0,
  199.     kUnicodeNoCompatibilityVariant = 1,
  200.     kUnicodeMaxDecomposedVariant = 2,
  201.     kUnicodeNoComposedVariant    = 3,
  202.     kUnicodeNoCorporateVariant    = 4,                            /* Variants of Big-5 encoding*/
  203.     kBig5_BasicVariant            = 0,
  204.     kBig5_StandardVariant        = 1,                            /* 0xC6A1-0xC7FC: kana, Cyrillic, enclosed numerics*/
  205.     kBig5_ETenVariant            = 2,                            /* adds kana, Cyrillic, radicals, etc with hi bytes C6-C8,F9*/
  206.                                                                 /* The following are older names for backward compatibility*/
  207.     kJapaneseStandardVariant    = 0,
  208.     kJapaneseStdNoVerticalsVariant = 1,
  209.     kJapaneseBasicVariant        = 2,
  210.     kJapanesePostScriptScrnVariant = 3,
  211.     kJapanesePostScriptPrintVariant = 4,
  212.     kJapaneseVertAtKuPlusTenVariant = 5,                        /* kJapaneseStdNoOneByteKanaVariant = 6,    // replaced by kJapaneseNoOneByteKanaOption*/
  213.                                                                 /* kJapaneseBasicNoOneByteKanaVariant = 7,    // replaced by kJapaneseNoOneByteKanaOption    */
  214.     kHebrewStandardVariant        = 0,
  215.     kHebrewFigureSpaceVariant    = 1
  216. };
  217.  
  218. /* TextEncodingFormat type & values */
  219. typedef UInt32 TextEncodingFormat;
  220.  
  221. enum {
  222.                                                                 /* Default TextEncodingFormat for any TextEncodingBase*/
  223.     kTextEncodingDefaultFormat    = 0,                            /* Formats for Unicode & ISO 10646*/
  224.     kUnicode16BitFormat            = 0,
  225.     kUnicodeUTF7Format            = 1,
  226.     kUnicodeUTF8Format            = 2,
  227.     kUnicode32BitFormat            = 3
  228. };
  229.  
  230. /* TextEncoding type */
  231. typedef UInt32 TextEncoding;
  232. /* name part selector for GetTextEncodingName*/
  233. typedef UInt32 TextEncodingNameSelector;
  234.  
  235. enum {
  236.     kTextEncodingFullName        = 0,
  237.     kTextEncodingBaseName        = 1,
  238.     kTextEncodingVariantName    = 2,
  239.     kTextEncodingFormatName        = 3
  240. };
  241.  
  242. /* Types used in conversion */
  243. struct TextEncodingRun {
  244.     ByteOffset                         offset;
  245.     TextEncoding                     textEncoding;
  246. };
  247. typedef struct TextEncodingRun TextEncodingRun;
  248.  
  249. typedef TextEncodingRun *TextEncodingRunPtr;
  250. typedef const TextEncodingRun *ConstTextEncodingRunPtr;
  251. struct ScriptCodeRun {
  252.     ByteOffset                         offset;
  253.     ScriptCode                         script;
  254. };
  255. typedef struct ScriptCodeRun ScriptCodeRun;
  256.  
  257. typedef ScriptCodeRun *ScriptCodeRunPtr;
  258. typedef const ScriptCodeRun *ConstScriptCodeRunPtr;
  259. typedef UInt8 *TextPtr;
  260. typedef const UInt8 *ConstTextPtr;
  261. /* Basic types for Unicode characters and strings: */
  262. typedef UniChar *UniCharArrayPtr;
  263. typedef const UniChar *ConstUniCharArrayPtr;
  264. /* enums for TextEncoding Conversion routines*/
  265.  
  266. enum {
  267.     kTextScriptDontCare            = -128,
  268.     kTextLanguageDontCare        = -128,
  269.     kTextRegionDontCare            = -128
  270. };
  271.  
  272. /* struct for TECGetInfo*/
  273. struct TECInfo {
  274.     UInt16                             format;                        /* format code for this struct*/
  275.     UInt16                             tecVersion;                    /* TEC version in BCD, e.g. 0x0121 for 1.2.1*/
  276.     UInt32                             tecTextConverterFeatures;    /* bitmask indicating TEC features/fixes*/
  277.     UInt32                             tecUnicodeConverterFeatures; /* bitmask indicating UnicodeConverter features/fixes*/
  278.     UInt32                             tecTextCommonFeatures;        /* bitmask indicating TextCommon features/fixes*/
  279.     Str31                             tecTextEncodingsFolderName;    /* localized name of Text Encodings folder (pascal string)*/
  280.     Str31                             tecExtensionFileName;        /* localized name of TEC extension (pascal string)*/
  281. };
  282. typedef struct TECInfo TECInfo;
  283.  
  284. typedef TECInfo *TECInfoPtr;
  285. typedef TECInfoPtr *TECInfoHandle;
  286. /* Value for TECInfo format code*/
  287.  
  288. enum {
  289.     kTECInfoCurrentFormat        = 1                                /* any future formats will just add fields at the end*/
  290. };
  291.  
  292. /*
  293.  Defined feature/fix bits for tecUnicodeConverterFeatures field
  294.  Bit:                                Meaning if set:
  295.  ----                                ---------------
  296.  kTECKeepInfoFixBit                Unicode Converter no longer ignores other control flags if
  297.                                     kUnicodeKeepInfoBit is set. Bug fix.
  298.  kTECFallbackTextLengthFixBit        Unicode Converter honors the *srcConvLen and *destConvLen
  299.                                     returned by caller-supplied fallback handler for any status
  300.                                     it returns except for kTECUnmappableElementErr (previously
  301.                                     it only honored these values if noErr was returned). Bug fix.
  302. */
  303.  
  304. enum {
  305.     kTECKeepInfoFixBit            = 0,
  306.     kTECFallbackTextLengthFixBit = 1
  307. };
  308.  
  309.  
  310. enum {
  311.     kTECKeepInfoFixMask            = 1L << kTECKeepInfoFixBit,
  312.     kTECFallbackTextLengthFixMask = 1L << kTECFallbackTextLengthFixBit
  313. };
  314.  
  315. /* Prototypes for TextEncoding functions*/
  316. extern pascal TextEncoding CreateTextEncoding(TextEncodingBase encodingBase, TextEncodingVariant encodingVariant, TextEncodingFormat encodingFormat);
  317.  
  318. extern pascal TextEncodingBase GetTextEncodingBase(TextEncoding encoding);
  319.  
  320. extern pascal TextEncodingVariant GetTextEncodingVariant(TextEncoding encoding);
  321.  
  322. extern pascal TextEncodingFormat GetTextEncodingFormat(TextEncoding encoding);
  323.  
  324. extern pascal TextEncoding ResolveDefaultTextEncoding(TextEncoding encoding);
  325.  
  326. extern OSStatus GetTextEncodingName(TextEncoding iEncoding, TextEncodingNameSelector iNamePartSelector, RegionCode iPreferredRegion, TextEncoding iPreferredEncoding, ByteCount iOutputBufLen, ByteCount *oNameLength, RegionCode *oActualRegion, TextEncoding *oActualEncoding, TextPtr oEncodingName);
  327.  
  328. extern pascal OSStatus TECGetInfo(TECInfoHandle *tecInfo);
  329.  
  330. extern pascal OSStatus UpgradeScriptInfoToTextEncoding(ScriptCode iTextScriptID, LangCode iTextLanguageID, RegionCode iRegionID, ConstStr255Param iTextFontname, TextEncoding *oEncoding);
  331.  
  332. extern pascal OSStatus RevertTextEncodingToScriptInfo(TextEncoding iEncoding, ScriptCode *oTextScriptID, LangCode *oTextLanguageID, Str255 oTextFontname);
  333.  
  334.  
  335. #if PRAGMA_ALIGN_SUPPORTED
  336. #pragma options align=reset
  337. #endif
  338.  
  339. #if PRAGMA_IMPORT_SUPPORTED
  340. #pragma import off
  341. #endif
  342.  
  343. #ifdef __cplusplus
  344. }
  345. #endif
  346.  
  347. #endif /* __TEXTCOMMON__ */
  348.  
  349.